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Auggajbe der Erfindung und towgndnngabe reiche 

Die vorliegende Erfindung erstreckt sich auf das Gebiet von 
programmierbaren und insbesondere. wahrend des Betriebes 
umprogrammiesbaren arithmetischen und/oder logischen 
Bausteinen 4VPUs) mit Vielzahl von arithmetischen und/oder 
logischen Einheiten, deren Verschaltung ebenfalls 
programmierbar und wahrend des Betriebes umprogrammierbar ist. 
Derartige logische Bausteine sind unter dem Oberbegriff FPGA 
von verschiedenen Firmen verfiigbar. Weiterhin sind mehrere 
Patente verdf fentlicht, die spezielle arithmetische Bausteine 

it automatischer Datensynchronisation und verbesserter 
arithmetischen Datenverarbeitung offenlegen. 
Samtliche beschriebene Bausteine besitzen eine zwei- oder 
mehrdimensionale Anordnung von logischen und/oder 
arithmetischen Einheiten (PAEs) , die uber Bussysteme 
miteinander verschaltbar sind. 

Kennzeichnend filr die der Erfindung entsprechenden Bausteine 
ist, dafl sie entweder die nachfolgend auf gelisteten Einheiten 
besitzen, oder zur erf indungsgemaiien Anwendung diese Einheiten 
programmiert oder (auch extern) hinzugefiigt werden: 
k l. mindestens eine Einheit (CM) zum Laden der 
Konf igura tionsda ten . 

2. PAEs. 

3. mindestens ein Interface (IOAG) zu einem oder mehreren 
Speichern und/oder peripheren Geraten. 

Aufgabe der Erfindung ist es, ein Programmierverf ahren zur 
verfiigung zu stellen, das es ermoglicht die beschriebenen 
Bausteine in gewohnlichen Hochsprachen effizient zu 
prograinmieren und dabei die Vorteile der durch die vielzahl 
von Einheiten entstehende Parallelitat der beschriebenen 
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Bausteine weitgehend automatisch, vollstandig und effizient zu 
nutzen. 



Stand, dar Technik 

Bausteine der genannten Gattung werden zumeist unter 
Verwendung gewohnlicher Datenf lussprachen progranuniert . Dabei 
treten zwei grundlegende Probleme auf: 

1. Die Programmierung in Datenf lussprachen ist fur 
Programmierer g ew6hnungsbedurf tig, tief sequentielle Aufgaben 
lassen sich nur sehr umstandlich beschreiben. 

2. GroBe Applikationen und sequentielle Beschreibungen lassen 
sich mit den bestehenden Obersetzungsprogrammen (Synthese- 
Tools) nur bedingt auf die gewiinschte Zieltechnologie abbilden 
(synthetisieren) . 

Fur gew6hnlich werden Applikationen in mehrere 
Teilapplikationen partitioniert , die dann einzeln auf die 
Zieltechnologie synthetisiert werden (Fig. 1). Die einzelnen 
Binarcodes werden dann auf jeweils einen Baustein geladen. 
Wesentliche Voraussetzung der Erfindung ist das in DE 44 16 
881 beschriebene Verfahren, das es ermoglicht, mehrere 
partitionierte Teilapplikationen innerhalb eines Bausteines zu 
nutzen, indem die zeitliche Abhangigkeit analysiert wird und 
tiber Steuersignale sequentiell die jeweils erf orderlichen 
Teilapplikationen bei einer iibergeordneten Ladeeinheit 
angefordert und von dieser daraufhin auf den Baustein geladen 
werden . 

Existierende Synthese-Tools sind nur bedingt in der Lage 
Programm-Schleifen auf Bausteine abzubilden (Fig. 2 0201). 
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Dabei werden FOR-Schleif en (0202) als Primitiv-Schleif e haufig 
noch dadurch untersttitzt, dafi die Schleife vollkommen auf die 
Ressourcen des Zielbausteines ausgewalzt werden. 

WHILE-Schleifen (0203) besitzen im Gegensatz zu FOR-Schleif en 
keinen; kon's«&anfeen. Abbruchswert . Viel-mehr wird-sdurch- eine 
Bedingung evaluiert, wann der Schleifenabbruch* stattf indet . 
Daher ist gewdhnlicherweise (wenn die Bedingung nicht konstant 
ist) zur Synthesezeit nicht bekannt, wann die Schleife 
abbricht. Durch das dynaroische Verhalten konnen Synthese-Tools 
diese Schleifen nicht fest auf Hardware abgebildet d.h. auf 
^einen Zielbaustein ubertragen werden. 

Rekux-aionea sind grundsatzlich nicht auf Hardware abbildbar, 
wenn die Re kursAonstieife nicht ^ur Synthesezeit bekannt und 
damit konstant ist. Bei der Rekursion werden mit jeder neuen 
Re kur s ionsebene . neue* Res sourcen- al l^k^ert . " ©'a swwurde^bedeuten , 
dali mit je*der*Rekurs4^^^ Verfiigung 
gestellt werden^muB,' was^aber**dynami;sch nidht^ihoglich ist. 



Selbst einfache Grundstrukturen sind von Synthesetools nur 
dann abbildbar, wenn der Zielbaustein ausreichend grofl ist, 
d.h. ausreichende Ressourcen bietet. 

tnf ache z&kt. lisfctee «MH&n0*9teKLt ( 0 30 1 > we**»w**^ heut4#% 
Synthese-Tools nicht in mehrere Teilapplikationen 
partitioniert und sind deshalb nur als Ganzes auf einen 
Zielbaustein ubertragbar. 

Bedingte Ausfahrungen (0302) und Schleifen uber Bedingungen 
(0303) sind ebenfalls nur abbildbar, wenn ausreichende 
Ressourcen auf dem Zielbaustein exist ieren. 

Erf indianqggemaAes Verfahren 
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Durch das in. DE 44 16 881 beschriebene Verfahren ist es 
moglich Bedingungen zur Laufzeit innerhalb der 
Hardwarestrukturen der genannten Bausteine zu erkennen und 
derart dynamisch darauf zu reagieren, dafi die Funktion der 
Hardware entsprechend der eingetretenen Bedingung modifiziert 
wird, was im wesentlichen durch das Konf igurieren einer neuen 
Struktur geschieht. 

Ein wesentlicher Schritt in dem erf indungsgemafien Verfahren 
ist die Partitionierung von Graphen (Applikationen) in 
zeitlich unabhangige Teilgraphen (Teilapplikationen) . 

ber Begriff "zeitliche Unabhangigkeit" wird damit definiert, 
dafl die Daten, die zwischen zwei Teilapplikationen ubertragen 
werden durch einen Speicher, gleich welcher Ausgestaltung 
(also auch mittels einfacher Register), entkoppelt werden. Die 
ist besonders an den Stellen eines Graphen mdglich, an denen 
eine klare Schnittstelle mit einer begrenzten und moglichst 
minimalen Menge von Signalen zwischen den beiden Teilgraphen 
besteht , 

Die zeitliche Unabhangigkeit kann in grolien Graphen durch das 
gezielte Einfugen von klar definierten und moglichste 
einfachen Schnittstellen zum Speichern von Daten in einen 
Zwischenspeicher herbeigefuhrt werden (vgl. S n in Fig- 4). 
Schleifen weisen grundsatzlich eine starke zeitliche 
Unabhangigkeit auf, da sie lange Zeit uber einer bestimmten 
Menge von (zumeist) in der Schleife lokalen Variablen arbeiten 
und nur beim Schleif eneintritt und beim Verlassen der Schleife 
eine Obertragung der Operanden bzw. des Ergebnisses erfordern. 

Durch die zeitliche Unabhangigkeit wird efreicht, dafl nach der 
vollstandigen Ausfiihrung einer Teilapplikation die 
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nachfolgende Teilapplikation geladen werden kann, ohne dafi 
irgendwelche weiteren Abhangigkeiten oder Einflusse auftreten. 
Beiro Speichern der Daten in den genannten Speicher kann ein 
Status-Signal (Trigger, vgl. PACT08) generiert werden, das die 
tibe r geor dne,teen*,Ladee into eit- mm =m cWadeik* r nachsten 
Teilapplikatdon aUff-ordert. Der Trigger kann bei der- 
Verwendund**von Mftf JfBherf"Re*4«tern als Speicher immer 
generiert werden, wenn das Register beschrieben wird. Bei der 
Verwendung von Speichern, i.b- von solchen die nach dem FIFO- 
Prinzip arbeiten, ist die Generierung des Triggers von 
mehreren Bedingungen abhangig. Folgende Bedingungen konnen 
•eispielsweise einzeln oder kombiniert ein Trigger erzeugen: 

- Ergebnis-Speicher voll 

- Operanden-Speicher leer 

- keine neuen Operanden 

- Beliebige Bedingung innerhalb der Teilapplikation, generiert 

durch z.B. 

* Vergleieher 

* Zahler 

Eine Teilapplikation wird im folgenden auch Modul genannt, um 
die Verstandlichkeit aus Sicht der klassischen Programmierung 
zu erhohen. Aus demselben Grund werden Signale im folgenden 
'auch Variablen genannt . Dabei unterscheiden sich diese 
Variablen in einem Punkt wesentlich von hexkommlichen 
Variablen: Jeder Variable ist ein Statussignal (Ready) 
zugeordnet, das anzeigt, ob diese Variable einen gultigen Wert 
besitzt. Wenn ein Signal einen gultigen (bereehneten) Wert 
besitzt, ist das Statussignal Ready; wenn das Signal keinen 
gultigen Wert besitzt (Berechnung noch nicht abgeschlossen) , 
ist das Statussignal Not_Ready. Das Prinzip ist ausfiihrlich in 
der Patentanmeldung P196 51 075.9 beschrieben. 
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Zusammenfassend kann den Triggern folgende Funktionen 
zugeordnet werden: 

1. Steuerung der Datenverarbeitung als Status einzelner PAEs 

2. Steuerung der Umkonf iguration der PAEs (zeitliche Abfolge 
der Teilapplikationen) 

insbesondere die Abbruchkriterien von Schleifen (WHILE) und 
bedingte Sprunge in Teilapplikationen werden von Triggern 
realisiert . 

In Fall 1 werden die Trigger zwischen PAEs ausgetauscht, in 
Fall 2 werden die Trigger von den PAEs zur CT gesendet. 
Wesentlich an der Erfindung ist, dafi der Cbergang zwischen 
Fall 1 und 2 im wesentlichen von der Anzahl der gerade 

aufenden Teilapplikationen in der Matrix von PAEs abhangt. 
Mit anderen Worten, Trigger werden zu den Teilapplikationen 
gesendet, die auf den PAEs aktuell ausgefuhrt werden. Ist eine 
Teilapplikation nicht konf iguriert , so werden die Trigger an 
die CT gesendet. Wichtig dabei ist: ware auch diese 
Teilapplikation konf iguriert, so wiirden die entsprechenden 
Trigger direkt an die entsprechenden PAEs gesendet werden. 

Dadurch ergibt sich eine automatische Skalierung der 
Rechenleistung bei steigender PAE-Grofie, bzw. der Kaskadierung 

•mehrerer Matrizen aus PAEs. Dann wird namlich keine 
bmkonfigurationszeit mehr benatigt, sondern die Trigger werden 
direkt an die nun bereits konf igurierten PAEs gesendet. 



Wave-Reconf ioura t ion 

Durch eine geeignete Hardwarearchitektur (vgl. Fig. 10/11) ist 
es m&glich mehrere Module zu tiberlappen. D.h. mehrere Module 
sind in den PAEs vorkonf iguriert und es kann mit miniraalem 
zeitaufwand zwischen den Konf igu'rationen umgeschaltet werden. 
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so dafl aus einer Menge von mehreren Konf igurationen pro PAE 
iramer genau eine Konf iguration aktiviert ist. 

Wesentlich ist, dali dabei in einer Menge von PAEs in die ein 
Modul A und B -vorkonf iguriert ist, ein Teil der Menge mit 
einem Teil von A und eine anderer Teil der Menge gleichzeitig 
mit einem 1 T«eil'B.*konfiguriert sein-kann. -Dabei -ist?. die 
Trennung. der beiden Teile exakt durch die PAE^g t e#eben, in der 
der Umschaltezustand zwischen A und B auftritt. Das bedeutet, 
dafi ausgehend von einem bestimmten Zeitpunkt bei alien PAEs 
bei denen vor diesem Zeitpunkt A zur Ausfiihrung aktiviert war 
B aktiviert ist und bei alien anderen PAEs nach diesem 
Zeitpunkt immer noch auf A aktiviert ist. Mit steigender Zeit 

ird bei immer mehr PAEs B aktiviert. 
Die Umschaltung erfolgt aufgrund von bestimmten Daten, 
Zustanden die sich aus der -Berechnungvder Da»%en- ergeben oder 
aufgrund beliebiger anderer Ereignisse. 

Das bewirkt, daB direkt nach *Ve«Mrbeit.ung, el'nes^Datenpaketes 
zu einer anderen .Konf rguration* umgeschaLtetf werden kann. 
Gleichzeitig/Alternativ kann ein 1 Signal "( R E€©N G -T R I GGER ) an 
den CM gesendet werden, das das Vorladen von neiaen 
Konf igurationen durch den CM bewirkt. Das Vorladen kann dabei 
auf anderen von der aktuellen Datenverarbeitung abhSngigen 
oder unabhangigen PAEs erfolgen. Durch eine Entkopplung der 

kt-iven Konf iguration von d6'n zur ^u«k^Dni£igu^^®n" zur* 
Verfugung stehenden Konf igurationen (vgl. Fig. 10/11} k6nnen 
auch gerade arbeitende (aktive) PAEs, insbesondere auch die 
PAE, die den RECONFIG-TRIGGER erzeugte, mit neuen 
Konf igurationen geladen werden. Dies ermoglicht eine mit der 
Datenverarbeitung iiberlappende Konf iguration. 

In Figur 13 ist das Grundprinzip der Wave-Reconfiguration 
(WRC) dargestellt. Dabei wird von einer Reihe von PAEs (PAE1- 
9) ausgegangen, durch die die Oaten pipelineahnlich laufen. Es 

- 7 / 42i - 





wird ausdrticklich darauf hingewiesen, dafi WRC nicht auf 
Pipelines beschrankt ist und die Vernetzung und Gruppierung 
der PAEs jede beliebige Form annehmen kann. Die Darstellung 
wurde jedoch gewahlt um ein einfaches Beispiel zum besseren 
VerstSndnis zu zeigen. 

in Fig. 13a lauft ein Datenpaket in die PAE1. Die PAE besitzt 
4 mogliche Konf igurationen (A, F, H, C), die durch eine 
geeignete Hardware (vgl. Fig- 10/11) wahlbar sind. Die 
Konfiguration F ist in in PAE1 fiir das aktuelle Datenpaket 
aktiviert (schraffiert dargestellt) . 

im nachsten Takt lauft das Datenpakt nach PAE 2 und ein neues 
Datenpaket erscheint in PAE1. Auch in PAE 2 ist F aktiv. 
Zusammen mit dem Datenpaket erscheint ein Ereignis (Tl) bei 
PAE1. Das Ergnis entsteht durch Eintreffen eines beliebigen 
Ereignisses von aussen bei der PAE (z.B. eines Statusflags 
oder Triggers) Oder wird innerhalb der PAE durch die 
ausgefuhrte Berechnung generiert. 

In Fig. 13c wird in PAE1 aufgrund des Ereignisses {tl) die 
Konfiguration H aktiviert, gleichzeitig erscheint ein neues 
Ereignis <T2), das im nachsten Takt (Fig. 13d) die Aktivierung 
von Konfiguration A bewirkt. 

in Fig. I3e trifft (t3) bei PAEl, die das Uberschreiben von F 
mit G bewirkt (Fig. 13f ) . Durch das Eintreffen von (?4) wird G 
aktiviert (Fig. 13g) . (t5) bewirkt das Laden von K anstelle 
von C (Fig l3h,i) und (t6) ladt und startet F anstelle von H 
(Fig. I3j). 

in den Figuren 13g*) bis I3j*) wird verdeutlicht, dafi beim 
Durchlaufen einer Wave-Reconfiguration nicht alle PAEs nach 
demselben Muster arbeiten mussen. Wie eine PAE von einer Wave- 
Reconfiguration konfiguriert wird, ist prinzipiell abhangig 
von ihrer eigenen Konfiguration. Hier soil dargestellt werden, 
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daB PAE4 bis PAE6 derart konfiguriert sind, daB sie anders auf 
die Ereignisse reagieren, als die ubrigen PAEs. Bei 3 pielsweise 
wird in Fig. 13g*J aufgrund von Ereignis t2 nicht A sondern H 
aktiviert (vgl. Fig. 13g) - Dasselbe gilt fur 13h*> . Aufgrund 
von Ereignis t3 wird in Fig. 13i*) nicht G geladen, sondern 
die Konfigu-rat-ion F-bleibt »bestehen und- A bleibt aktiviert .- In 
Fig. 13j*) ist bei PAE7 angedeutet, 'daB Ereignis t3 wieder das 
Laden von G auslosen wird. In PAE4, bewirkt das Ereignis T4 
das Aktivieren von F anstatt der Konf iguration G (vgl. Fig. 
I3j) . 

|ln Fig. 13 bewegt eine Welle von Umkonf igurationen aufgrund 
von Ereignissen durch eine Menge von PAEs, die 2- oder 
mehrdimensional ausgestaltet sein kann. 

Es ist nicht zwingend notwendig, daB eine einmal stattf indende 
Umkonfiguration durch die gesamten Flua hinweg stattfindet. 
Beispielsweise^konnte die Umkonfiguration mit <der Aktivierung 
von A aufgrund.des Ereignisses (t2) nur lokal in den' PAEsl bis 
3 und PAE7 stattf inden, wahrend in alien anderen PAEs 
weiterhin die Konf iguration H aktiviert bleibt. 
Mit anderen Worten: 

a) Es ist moglich, daB ein Ereigniss nur lokal auftritt und 
daher nur lokal eine Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat moglicherweise keine Auswirkung 
auf manche PAEs; abhangig vom ausgefiihrten Algorithmus. 

Bei den PAEs die nach (t2) weiterhin H aktiviert halten, kann 
selbstverstandlich das Eintreffen des Ereignisses (t3) 
vollkommen andere Auswirkungen haben, (I) wie etwa das 
Aktivieren von C statt dem Laden von G, (ii) andererseits 
kdnnte (t3) auf diese PAEs auch gar keinen EinfluB haben. 
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Dag Progeasormodell 

Die in den folgenden Figuren gezeigten Graphen besitzen als 
Graphenknoten immer in Modul, wobei davon ausgegangen wird, 
dafi mehrere Module auf einen Zielbaustein abgebildet werden 
konnen. Das heiflt, obwohl alle Module zeitlich voneinander 
unabhangig sind, wird nur bei den Modulen eine Umkonf iguration 
durchgefiihrt, und/oder ein Datenspeicher eingeftlgt, die mit 
einem vertikalen Strich und At markiert sind. Dieser Punkt 
*rird Umkonf iguration3zeitpunkt genannt. 

Der Umkonfigurationszeitpunkt ist abhangig von den bestimmten 
Daten oder den Zustanden die sich aus der Verarbeitung der 
bestimmten Daten ergeben. 

Das bedeutet zusammenf assend: 

1. GroBe Module konnen an geeigneten Stellen partitioniert 
werden und in kleine zeitlich voneinander unabhangige Module 
zerlegt werden. 

2. Bei kleinen Modulen die gemeinsam auf einen Zielbaustein 
abgebildet werden konnen, wird auf die zeitliche 
Unabhangigkeit verzichtet. Dadurch werden 

'Konfigurationsschritte eingespart und die Datenverarbeitung 
beschleunigt . 

3. Die Umkonf igurationszeitpunkte werden entsprechend der 
Ressourcen der Zielbausteine posit ioniert . Dadurch ist eine 
beliebige Skalierung der Graphenlange gegeben. 

4. Module konnen uberlagert konfiguriert werden. 

5. Die Umkonf iguration von Modulen wird durch die Daten selbst 
Oder dem Ergebnis der Verarbeitung der Daten gesteuert. 

6. Die von den Modulen generierten Daten werden gespeichert 
und die zeitlich nachf olgenden Module lesen die Daten aus 

- 10 / 42-t - 




diesem Speicher aus und speichern die Ergebnisse wiederum in 
einen Speicher oder geben das Endergebnis an die Peripherie 
aus. 

Virtual Machine Mddell 
Die Grundlagen TderJDatenverarbeitunq-mit VPU-Bausfceinen sind 
entsprechend der- vorhergehenden Abs'chnitte hauptsachlich 
datenfluBorientiert. Um sequentielle Programme mit 
ordentlicher Leistung abzuarbeiten, ist es jedoch notwendig 
ein sequentielles Datenverarbeitungsmodell zur Verfugung zu 
haben. Dabei sind oftmals die Sequenzer in den einzelnen PAEs 
nicht ausreichend. 

ie Architektur von VPUs ermoglicht jedoch grundsatzlich den 
Aufbau von beliebig komplexen Sequenzern aus einzelnen PAEs. 
Das bedeuted: 

1. Es konnen komplexe Sequenzer konfiguriert werden, die exakt 
den Anforderungen des Algorithmus entespreohen. 

2. Der Datenf lufi- kann»>w4e bereits* ausfuhrlich *diskutiert, 
exakt die Rechenschritte *des- Algorit-hmus represent ieren. 

Dadurch kann eine Virtuelle Maschine auf VPUs implementiert 
werden, die insbesondere auch den sequentiellen Anforderungen 
eines Algorithmus entspricht. 
I 

Hauptvorteil der VPU-Architektur ist, daii ein Algorithmus 
durch einen Compiler so zerteilt werden kann, dafi die 
Datenf luSteile extrahiert werden durch einen "optimalen" 
Datenflufi reprasentiert werden, indem ein angepafiter DatenfluB 
konfiguriert wird UND die sequentiellen Telle des Algorithmus 
durch einen "optimalen" Sequenzer reprasentiert werden, indem 
ein angepafiter Sequenzer konfiguriert wird. Dabei konnen 
gleichzeitig mehrere Sequenzer und Datenfliisse auf einer VPU 
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untergebracht werden, ausschliefilich abhangig von den zur 
Verfugung stehenden Ressourcen. 

Durch die groBe Anzahl an PAEs entstehen im Betrieb innerhalb 
einer VPU sehr viele lokalen Zustande. Bei Taskwechseln oder 
Unterprogramm-Aufrufen (Interrupts) miissen diese Zustande 
gesichert werden (vgl. PUSH/POP bei Standardprozessoren) . Dies 
ist jedoch aufgrund der Menge an Zustanden nicht sinnvoll 
moglich. 




Um die Zustande auf eine handhabbare Menge zu reduzieren mufi 
zwischen zwei Arten von Zustanden unterschieden werden: 

Zustandsinformationen des Maschinenmodells (MACHINE- STATE) . 
Diese Zustandsinformationen sind nur innerhalb der 
Abarbeitung eines bestimmten Modules giiltig und werden auch 
nur lokal in den Seguenzern und Datenf luBeinheiten dieses 
bestimmten Modules verwendet. D.h. diese MACHINE-STATEs 
reprasentieren die Zustande, die in Prozessoren nach dem 
Stand der Technik verdeckt innerhalb der Hardware ablaufen, 
implizit in den Befehlen und den Verarbeitungsschritten 
sind und nach Ablauf eines Befehles keine weitere 
Information fur nachfolgende Befehle beinhalten. Oerartige 
Zustande brauchen nicht gesichert zu werden. Bedingung 
dafur ist, daB Interrupts nur nach kompletter Ausfuhrung 
aller gerade aktiven Module durchgefuhrt werden. Stehen 
Interrupts zur Ausfuhrung an, werden keine neuen Module 
geladen, sondern nur noch aktive abgearbeitet; ebenfalls 
werden den aktiven Modulen, soweit es der Algorithmus 
zulaBt keine neuen Operanden mehr zugefiihrt. Dadurch wird 
ein Modul zu einer atomaren nicht unterbrechbaren Einheit, 
vergleichbar mit einer Instruktion eines Prozessors nach 
dem Stand der Technik. 
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2. Zustande der Datenverarbeitung (DATA-STATE). Die 
datenbezogenen Zustande miissen beim Auftreten eines 
interrupts entsprechend den Prozessormodellen nach dem 
Stand der TechniJc gesichert und in den Speicher geschrieben 
Werden. Das sind bestimmte notwendige Register und Flags 
oder entsprechend der Begriffe der VPU-Technologie - 
Trigger. 

Bei den DATA-STATEs kann die Handhabung je nach Algorithmic 
weiter vereinfacht werden. Zwei grundlegende Strategien werden 
im Folgenden nahers erlautert: 

1. Mitlaufen der Zustandsinformation 

Dabei werden alle relevanten und zu einem spateren Zeitpunkt 
benotigten Zustandsinf ormationen von einem Modul zum nachsten 
ubertragen/* wie <es in Pipelines crffemals standardmaBig 
implementiert ist. Die Zustandsinf or-ma tionen-werden dann 
zusammen nGL«sastenrDaten-^roplizit iwei*nem*»Spevj?©her- abgelegt , 
sodafi die .Zustande b.ei..einem Abruf der. Daten zugleich zur 
Ver f iigung stehen Eln > expli zirt es^Ha^dteabenader 
Zustandsitt.for.mat^onen i.b. mittels PUSH~und -POP enWMllt 
dadurch, was je nach Algorithmus einerseits zu einer 
wesentlichen Beschleunigung der Abarbeitung und andererseits 
zu einer vereinf achten Programmierung fuhrt. 
| s pie Zustandsinf ormaton kann wahlweise entweder mit dem 
jeweiligen Datenpaket gespeichert werden, oder nur im Falle 
eines Interrupts gesichert und besonders gekennzeichnet 
werden. 

2. Sichern -der Reentry Adresse 

Bei der Verarbeitung von groflen Datenmengen, die in einem 
Speicher abgelegt sind, ist kann es sinnvoll sein die Adresse 
mindestens einer der Operanden des gerade verarbeiteten 
Datenpaketes mit dem Datenpaket zusammen durch die PAEs zu 
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leiten. Dabei wird die Adresse nicht modifiziert sondern steht 
beim Schreiben des Datenpaketes in ein RAM als Pointer auf den 
letzten verarbeiteten Operanden zur Verfiigung. 
Dieser Pointer kann wahlweise entweder mit dem jeweiligen 
Datenpaket gespeichert werden, oder nur im Falle eines 
Interrupts gesichert und besonders gekennzeichnet werden. 
Insbesondere, wenn samtliche Pointer auf die Operanden durch 
eine Adresse (oder eine Gruppe von Adressen) berechnet werden 
kbnnen ist es sinnvoll nur eine Adresse (oder eine Gruppe von 
Adressen) zu sichern. 

"ULIW"-"oCISC ,, -Modell 

kjr das Verstandnis dieses (einem Prozessor nach dem Stand der 
Technik sehr ahlichen) Modells ist eine Erweiterung der 
Betrachtungsweise der Architektur von VPUs erforderlich. Dabei 
dient das Virtual-Machine Modell als Grundlage. 
Das Array aus PAEs (PA) wird als in ihrer Architektur 
konfigurierbare Recheneinheit betrachtet. Der/die CM(s) 
stellen eine Ladeeinheit (LOAD-UNIT) fur Opcodes dar. Die 
IOAG(s) ubernehmen das Businterface und/oder den Registersatz. 

Diese Anordnung ermoglicht zwei grundsatzliche 
Funktionsweisen, die im Betrieb gemischt verwendbar sind: 

1. Eine Gruppe von PAEs (das kann auch eine PAE sein) wird zur 
Ausftlhrung eines komplexen Befehls oder Befehlsfolge 
konfiguriert und danach werden die auf diesen Befehl bezogenen 
Daten (das kann auch ein einziges Datenwort sein) verarbeitet. 
Danach wird diese Gruppe umkonf iguriert, zur Abarbeitung des 
nSchsten Befehles. Dabei kann sich die GroAe und Anordnung der 
Gruppe andern. GemaB den bereits besprochenen 
Partitionierungstechnologien obliegt es dem Compiler, 
moglichst optimale Gruppen zu schaffen. Durch den CM werden 
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Gruppen als Befehle auf den Baustein "geladen", dadurch ist 
des Verfahren mit dem bekannten VLIW vergleichbar, nur dafl 
erheblich mehr Rechenwerke verwaltet werden UND die 
Vernetzungsstruktur zwischen den Rechenwerken ebenfalls vom 
Instruktionswort abgedeckt werden kann (Ultra Large • 
instruction Word .-. "ULIW") . ..Ein.. Instruktionswort entspricht 
dabei ei«nem Modul . Mehrere-* Module kon-nen gleichzeitig 
verarbeitet werden, sofern es die Abhangigkeit der Daten 
zulafit und geniigend Ressourcen auf dem Baustein frei sind. Wie 
bei VLIW-Befehlen wird fur gewohnlich nach Ausfiihren des 
Instruktionswortes sofort das nachste Instruktionswort 
geladen. Zur zeitlichen Optiinierung ist es dabei moglich das 

achste Instruktionswort bereits wahrend der Ausfiihrung 
vorzuladen (vgl. Fig. 10). Bei mehreren moglichen nachsten 
Instruktionswbrten kOnnen mehrere vorgeladen werden und vor 
der Ausfiihrung wird z.B. durch ein Triggersignal das korrekte 
Instruktionswort ausgewahlt. BEISPIEL MIT IF.. ELSE ZEICHNEN ! 




2. Eine Gruppe von PAEs (das kann auch eine-BAE^ein) wird zur 
Ausfiihrung einer haufig gebrauchten Befehlsfolge konf iguriert . 
Die Daten, das kann auch hier ein einzelnes Datenwort sein, 
werden bei Bedarf der Gruppe zugefiihrt und von der Gruppe 
empfangen. Diese Gruppe bleibt uber eine Vielzahl von Takten 
phne Umkonfiguration bestehen. Vergleichbar ist diese 
Anordnung mit einem speziellen Rechenwerk in einem Prozessor 
nach dem Stand der Technik (z.B. MMX) , das fur Spezialauf gaben 
vorgesehen ist und nur bei Bedarf verwendet wird. Durch diesen 
Ansatz sind Spezialbefehle entsprechend des CISC-Prinzipes 
generierbar, mit dem Vorteil, daB diese Befehle 
anwendungsspezifisch geschaffen werden konnen (Ultra-CISC - 

"UCISC") - 
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Erweiterung des RDY/ACK-Protokolls (vgl. PACTO^ 
In PACT 02 ist ein RDY/ACK-Standardprotokoll beschrieben, das 
die wesentlichen Anforderungen gemali den Synchronisationen von 
DE 44 16 881 in Hinblick auf eine typische 

Datenflufiapplikation beschreibt. Nachteil des Protokolles ist, 
daB lediglich Daten gesendet und der Empfang bestatigt werden 
kann. Der umgekehrte Fall, indem Daten angefordert werden und 
das Versenden bestatigt wird (im Folgenden REQ/ACK genannt, 
ist zwar elektrisch mit demselben Zweidrahtprotokoll 16sbar, 
jedoch semantisch nicht erfaBt- Das gilt insbesondere, wenn 
REQ/ACK und RDY/ACK gemischt betrieben werden. 

•Daher wird die klare Unterscheidung der Protokolle eingefuhrt: 
(iDY: Daten liegen beim Versender fiir den Empf anger bereit 
REQ: Daten werden vom Empf anger beim Versender angefordert 
ACK: Allgemeine Bestatigung fiir erfolgten Emfang oder Versand 

(Prinzipiell kbnnten auch zwischen ACK far ein RDY und einem 
ACK fiir ein REQ unterschieden werden, jedoch ist in den 
Protokollen die Semantik des ACKs fiir gewdhnlich implizit) . 



Speicherniodell 

In VPUs konnen Speicher integriert werden (einer oder 
.aehrere), die ahnlich einer PAE angesprochen werden. Es wird 
im folgenden ein Speichermodell beschrieben, das gleichzeitig 
ein Interface zu externer Peripherie und/oder externem 
Speicher darstellt: 

Ein VPU-interner Speicher mit PAE-ahnlichen Busfunktionen kann 
verschiedene Speichermodi darstellen: 

1. Standardspeicher 

2 . Lookup-Tabelle 

3. FIFO 

4. LIFO 

- 16 / 42i - 




Dem Speicher ist ein steuerbares Interface zugeordnet, das 
Speicherbereiche wahlweise wort- oder blockweise schreibt oder 

liest. 

Dadiirch ergeben sich folgende NutzungsmOglichkeiten: 

1- Entkoppli*ng- von -Datenstx@men_ (FIFO) 

2. Schneller ZM griff a.uf . S ele)ctierte Speicherbereiche eines 
externen Speichers, was eine Cacheahnliche Funktion 
darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarer Tiefe (LIFO) 

Dabei kann das Interface benutzt werden, es ist jedoch nicht 
Izwingend notwendig, wenn die Daten z.B. ausschlieMich lokal 
in der VPU verwendet werden und der Speicherplatz eines 
internen Speichers ausreicht. 



Stack Modell- Durch Verwendung des, REQ/ACK-Protokolls und der 
internen Speicher im LIFO-Modus kann ein einfacher Stack- 
Prozessor aufgebaut werden. Dabei werden temporare Daten von 
den PAEs auf den Stack geschrieben und bei Bedarf von dem 
Stack geladen. Die hierfur notwendigen Compilertechnologien 
sind hinreichend bekannt . Durch die variierbare Stacktiefe, die 
kdurch einen Datenaustausch des internen Speicher mit einem 
^externen Speicher erreicht wird, kann der Stack beliebig groB 
werden. 



Akkumulator «odelUede PAE kann eine Recheneinheit nach dem 
Akkumulatorprinzip darstellen. Wie aus PACT 02 bekannt ist es 
meglich die Ausgangsregister auf den Eingang der PAE 
ruckzukoppeln. In Dadurch ehtsteht ein Akkumulator nach dem 
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Stand der Technik.Tn Verbindung rnit dem Sequftr nach Fig. 
11 lassen sich einfache Akkumulator-Prozessoren aufbauen. 





Register Model 1 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im Standardspeicher-Modus kann ein einfacher 
Register-Prozessor aufgebaut werden. Dabei werden die 
Registeradressen von einer Gruppe von PAEs generiert, wahrend 
eine andere Gruppe von PAEs die Verarbeitung der Daten 
ubernimmt . 

Die verwendeten Maschinenmodell konnen innerhalb einer VPU 
beliebig kombiniert werden. Auch innerhalb eines Algorithms 
kann je nach dem, welches Modell optimal ist, zwischen den 
Modellen gewechselt werden. 

Wird einem Register-Prozessor ein weiterer Speicher zugefiigt, 
von dem die Operanden gelesen werden und in den die Ergebnisse 
geschrieben werden, kann eine Load/St ore-Prozessor aufgebaut 
werden. Dabei konnen mehrere verschiedene Speicher zugeordnet 
werden, indera die einzelnen Operanden und das Ergebnis 
getrennt behandelt wird. 

Diese Speicher arbeiten dann quasi als Load/Store-Einheit und 
stellen eine Art Cache fur den externen Speicher dar. Die 
Adressen werden durch von der Datenverarbeitung separierte 
PAEs berechnet. 



Pointer Reordering 

Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr 
schlecht durch Pipelines gehandhabt werden konnen. Wenn ein 
Pointer erst direkt vor dem Verwenden der Datenstrukturen auf 
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die er zeigt, berechnet wird, kann haufig die Pipeline nicht 
schnell genug gefiillt werden und die Verarbeitung wird 
speziell in VPUs ineffizient. 

Sicherlich ist es sinnvoll bei der Programmierung von VPUs 
moglichst keine Pointer zu verwenden, jedoch ist das- oftmals 

nicht rooglich. 

Die Losung ist, die Pointerstrukturen durch den Compiler so 
umzusortieren, daB die Pointeradressen moglichst lange vor 
deren Verwendung berechnet werden. Gleichzeitig sollte es 
moglichst wenig direkte Abhangigkeiten zwischen einem Pointer 
und den Daten auf die er zeigt geben. 

Fignren 

In Fig. 4a sind einige grundlegenden Eigenschaf ten des 
erfindungsgema&en Verfahrens dargestellt: 

Die Module des Types A sind zu einer Gruppe zusammengef aBt und 
besitzen am Ehde einer, bedingten Sprung, entweder nach Bl oder 
B2. An dieser Position (0401) ist ein Umkonf igurationspunkt 
eingefugt, da, es sinnvoll ist die Zweige, des^bedingten 
Sprunges als jewel Is eine Gruppe zu betrachten (Fall 1) . 
warden dagegen beide Zweige von B (Bl und B2) zusatzlich 
zusammen mit A auf den Zielbaustein passen (Fall 2), ware es 
sinnvoll nur einen Umkonf igurationspunkt bei 0402 einzufugen. 
da dadurch die Zahl der Konf igurationen verringert wird und 
sich die Verarbeitungsgeschwindigkeit erhoht. Beide Zweige (Bl 
und B2) springen bei 0402 nach C. 

Die Konfiguration der Zellen auf dem Zielbaustein ist in Fig. 
4b schematisch dargestellt. Dabei werden die Funktionen der 
einzelnen Graphenknoten auf die Zellen des Zielbausteins 
abgebildet. Jeweils eine Zeile stellt eine Konfiguration dar. 
Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine 
Umkonf iguration an. S n ist eine datenspeichernde Zelle, von 
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beliebiger Ausgestaltung (Register, Speicher, etc.). Dabei ist 
S n I ein Speicher, der Daten entgegennimmt und S n 0 ein Speicher 
der Daten ausgibt. Der Speicher S n ist fur gleiche n jeweils 
derselbe, I und O kennzeichnen die Datentransf errichtung. 

Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind 
dargestellt- 

Das Modell in Fig. 4 entspricht einem Datenf lufimodell, jedoch 
mit der wesentlichen Erweiterung des Umkonf igurationspunkts 
und der damit erreichbaren Partitionierung des Graphen, wobei 
die zwischen den Partitionen tibertragenen Daten 
zwischengespeichert werden. 

Ira Modell von Fig. 5a wird aus einer beliebigen Graphenmenge 
und -Konstellation (0501) selektiv ein Graph B„ aus einer Menge 
von Graphen B aufgerufen. Nach der Ausfuhrung von B gelangen 
die Daten nach 0501 zurtick. 

Wird in 0501 ein ausreichend grofier Sequencer (A) 
implementiert, ist mit dem Modell ein den typischen 
Prozessoren sehr ahnliches Prinzip implement ierbar. Dabei 
gelangen 

1. Daten in den Sequenzer A, die dieser ais Befehle dekodiert 
und entsprechend dem "von Neumann"-Prinzip darauf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden 
und an ein fest konf iguriertes Rechenwerk C zur Berechnung 
weitergeleitet werden. 

Der Graph B stellt selektierbar ein besonderes Rechenwerke 
und/oder besondere Opcodes fur bestimmte Funktionen zur 
Verfiigung und wird alternativ zur Beschleunigung von C 
verwendet. Beispielsweise kann Bl ein optimierter Algorithmic 
zu Berechnung von Matrixmultiplikationen sein, wahrend B2 
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einen FIR- Filter und B3 eine Mustererkennung darstellt. 
Entsprechend eines Opcodes der von 0501 dekodiert wird, wird 
der geeignete bzw. entsprechende Graph B aufgerufen. 

Fig: 5b schematisiert die Abbildung auf die einzelnen Zellen, 
wobei in 0502 der pipelineartige Rechenwerks-Character 
symbol isiert wird. 

Wahrend in den Umkonf igurationspunkten von Fig. 4 vorzugsveise 
grofiere Speicher zum Zwischenspeichern der Daten eingefiigt 
werden, ist eine einfache Synchronisation der Daten in den 
Umkonf igurationspunkten von Fig. 5 ausreichend, da der 
Datenstrom vorzugsweise als ganzer durch den Graphen B lauft 
und der Graph B nicht welter partitioniert ist; dadurch ist 
das Zwischenspeichern der Daten uberf liissig . 

In Fig. 6a sind verschiedene Schleifen dargestellt- Schleifen 
konnen grundsatzlich auf drei Arten behandelt werden: 

1. Hardware-Ansatz: Schleifen- werden vollstandig ausgewalzt 
auf die Zielhardware abgebildet (0601a/b) . Wie- bereits 
erlautert ist dies nur bei wenigen Schleif enarten moglich. 

2. Datenflufi-Ansatz: Innerhalb des DatenfluBes werden 
Schleifen uber mehrere Zellen hinweg aufgebaut (0602a/b) . Das 
Ende der Schleif e wird auf den Schleif enanfang ruckgekoppelt . 

3. Sequenzer-Ansatz: Ein Sequenzer mit minimalem Befehlssatz 
fuhrt die Schleife aus <0603a/b) . Dabei sind die Zellen der 
Zielbausteine so ausgestaltet, daB sie den entsprechenden 
Sequenzer beeinhalten (vgl. Fig. lla/b) . 

Durch eine geeignete Zerlegung von Schleifen kann deren 
Ausfiihrung ggf. optimiert werden: 

l.Unter Verwendung von Optimierungsmethoden nach dem Stand der 
Technik laBt sich haufig der Schleif enrumpf, also der 
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wiederholt auszufiihrende Teil, dadurch optimieren, dafi 
bestimmte Operationen aus der Schleife entfernt werden und vor 
oder hinter die Schleife gestellt werden (0604a/b) . Dadurch 
wird die Menge der zu sequencenden Befehle erheblich 
reduziert. Die entfernten Operationen werden nur einmal vor 
bzw. nach Ausfiihrung der Schleife durchlaufen. 
2. Eine weitere Optimierungsmdglichkeit ist das Teilen von 
Schleifen in mehrere kleinere oder kurzere Schleifen. Dabei 
findet die Teilung derart statt, dafi mehrere parallele oder 
mehrere sequentielle (0605a/b) Schleifen entstehen. 

Fig. 7 verdeutlicht die Implementierung einer Rekursion. Dabei 

•werden dieselben Ressourcen (0701) in Form von Zellen fiir jede 
Rekursionsebene (1-3) verwendet. Die Ergebnisse einer jeden 
Rekursionsebene (1-3) werden beim Aufbau (0711:) in einen nach 
dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. 
Gleichzeitig mit dem Abbau (0712:) der Ebenen wird der Stack 
abgebaut . 

In Fig. 14 wird das Virtual-Machine-Modell dargestellt. Aus 
einem externen Speicher werden Daten (14 01) und zu den Daten 
gehorende Zustande (1402) in eine VPU (1403) gelesen. 
1401/1402 werden iiber eine von der VPU generierte Adresse 1404 

•pelektiert. Innerhalb der vpu sind PAEs zu unterschiedlichen 
Gruppen zusammengefafit (1405, 1406, 1407). Jede Gruppe besitzt 
einen datenverarbeitenden Teil (1408), der lokale impilzite 
Zustande (1409) besitzt, die keinen EinfluB auf die 
umliegenden Gruppen besitzt. Daher werden dessen Zustande 
nicht auBerhalb der Gruppe weitergeleitet . Er kann jedoch von 
den externen Zustanden abhangig sein. Ein weiterer Teil (1410) 
generiert Zustande, die EinfluB auf die umliegenden Gruppen 
habeh. 
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Die Daten und Zustande der Ergebnisse wexden in einen weiteren 
Speicher (1411. 1412) abgelegt. Gleichzeitig kann die Adresse 
von Operanden (14004) als Pointer gespeichert (1413) werden. 
Zur zeitliche Synchronisation kann 1404 uber Register (1414) 
ge fuhrt. werden . 

In F,ig. -14« i?st««ur ,^y^deut.liohwig^ein_ einf aohes' Modell 
dargestellt. Die*«B»e«»wg-ond-G««ppA«aH«g.Jm«n»*»a«antlich 
komplexer sein als in diesem Modell. Ebenfalls konnen Zustande 
und Daten auch an weitere Module als den Nachfolgenden 
ubertragen werden. Es 1st moglich, dafl Daten an andere Module 
tibertragen werden als die Zustande. Sowohl Daten als auch 
Zustande eines bestiiranten Moduls konnen von mehreren 
unterschiedlichen Modulen empfangen werden. Innerhalb einer 
Gruppe kann 1408, 1409 und 1410 voranden sein. Abhangig vom 
Algorithmus^koEmem auch ei**zel>ne Tei-le fehlen (z.B. 1410 und 
1409 vorhanden, 1410 jredoch nicht) . 

In Figur 1 5 isfe* dargestellt r wde«*ausr einem*-Ve>»a*rbeit*ingsgraphen 
Teilapplikationen extrahiert-werden. >Dabei., wl^rd der: Graph so 
zerlegt, daa l&.nge -Graphen sinnvoll zert<eilt werden und in 
Teilapplikationen (H,A,C,K) abgebildet werden. Nach Spriingen 
werden neue Teilgraphen gebildet (C,K) wobei fur jeden Sprung 
ein getrennter Teilgraph gebildet wird. 

feeder Teilgraph isis^n dem§ULIW=SModeUl vm der CM«(vgl. 
PACT10) getrennt ladbar. Wesentlich ist, daft Teilgraphen durch 
die Mechanismen in PACT10 verwaltet werden konnen. Dazu gehort 
insbesondere das intelligente Konf igurieren, Ausfiihren/Starten 
und Loschen der Teilapplikationen. 

1503 bewirkt das 4Conf igurieren von Teilapplikation A, wahrend 
Teilapplikation K ausgefiihrt wird. Dadurch ist Teilapplikation 
A zum Ausfuhrungsende von Teilapplikation K bereits komplett 
in die PAEs konfiguriert. 1504 startet die Ausfuhrung von 
Teilapplikation K. 
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D.h. zur Laufzeit werden die nachsten benotigten Programmteile 
wahrend der Abarbeitung der aktuellen Programmteile unabhangig 
geladen. Dadurch ergibt sich ein wesentlich ef f izienterer 
Umgang mit den Programmcode, als bei ublichen Cache- 
Mechanismen . 

Bei Teilapplikationen A wird eine weitere Besonderheit 
dargestellt. Prinzipiell ware es denkbar beide moglichen 
Zweige (C,K) des Vergleiches vorzukonf igurieren. Angenommen, 
die Zahl der zur Verfiigung stehenden freien 
Konfigurationsregister reicht dazu nicht aus, wird der 
wahrscheinlichere der Zweige konfiguriert {1506). Das spart 
zudem Konfigurationszeit. Bei Ausfiihrung des nicht 
konfigurierten Zweigs, wird (da die Konf iguration noch nicht 
in die Konfigurationsregister geladen ist) die 
Programmausftlhrung unterbrochen, bis der Zweig konfiguriert 

ist. 

Grundsatzlich ist es moglich auch nicht konf igurierte 
Teilapplikationen auszufUhren (1505), diese mussen dann wie 
zuvor beschrieben vor der Ausfuhrung geladen werden. 

Das ULIW-Modell unterscheidet sich im Wesentlichen vom VLIW- 
Modell, indem es 

1. Das Routing der Daten mit beinhaltet 

2. GroBere Instruktionsworter bildet. 

Ebenfalls kann das beschriebene Verfahren der Partitionierung 
von Compilern fiir heutige Standardprozessoren nach dem 
RISC/CISC-Prinzip ebenso eingesetzt werden. Wird dann eine 
Einheit (CT) nach PACT10 zur Steuerung des Bef ehls-Caches 
verwendet, kann dieser erheblich optimiert und beschleunigt 
werden . 
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Dazu werden "normale- Programme entsprechend in 
Teilapplikationen partitioniert . Gemafl PACT10 werden Verweise 
auf mbgliche nachfolgende Teilapplikationen eingefiihrt (1501, 
1502) . Dadurch kann eine CT die Teilapplikationen bereits in 
den Cache vorladen bevor sie benotigt werden. Bei Sprungen wird 
nur die angesprungen Teifcapplfckation ausgefuhrt, die andere(n) 
werden spater durch neue Teilapplikationen iiberschrieben. 
Neben dem intelligenten Vorladen hat das Verfahren den 
weiteren Vorteil, dafi die Grdlie der Teilapplikationen beim 
Laden bereits bekannt 1st. Dadurch konnen optimale Bursts beim 
Zugriff auf die Speicher von der CT ausgeftihrt werden, was den 
Speicherzugriff wiederum erheblich beschleunigt . 

Figur 16 zeigt den Aufbau eines stack-Prozessors . Durch das 
PAE-Array (1601) werden Protokolle generiert 'urn auf einen als 
LIFO konfigurierten Speicher (1602) zu schreiben oder zu 
lesen. Dabei wird ein RDY/ACK-Protokoll zum Schreiben -and 
REQ/ACK-Protokoll«zum Lesen verwendet. Die Verhetzung und 
Betriebsmodi werden von der^CT (1603) konMguriert. 1-602 kann 
dabei seinen Inhalt auf den externen Speicher (1604) 
auslagem. 

Eine Reihe der PAEs sollen in diesem Beispiel als Register- 
(^pzes^^arbeiten «(Rigp^ •^l»*-*^^-4^*^rt fc ^«»**«* , W»-- 
Rechenwerk (1701) und einem Akkumulator (1702) auf den das 
Ergebnis von 1701 ruckgekoppelt (1703) ist- Damit stellt in 
diesero Beispiel jede PAE einen Akkumulator-Prozessor dar. 
Eine PAE (1705) liest und schreibt die Da ten in den als 
Standardspeicher- konfigurierten RAM (1704). Eine-weitere PAE 
(1706) generiert die Registeradressen . 

Oftmals ist es sinnvoll eine getrennt PAE zum Lesen der Daten 
zu verwenden. Dann wiirde 1705 nur schreiben und die PAE 1707 
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lesen. Dabei wird eine weitere PAE (1708, gestrichelt 
unterlegt) zum Generieren der Leseadressen einzufiihren. 
Es 1st nicht zwingend notwendig getrennte PAEa zum Generieren 
der Adressen zu verwendet. Offnals sind die Register implizzt 
und konnen dann als Konstanten konf iguriert werden von den 
datenverarbeitenden PAEs gesendet werden. 

Die verwendung von Akkunmlator-Prozessoren for einen Register- 
Prozessor 1st beispielshaft. Ebenso kBnnen zum Aufbau von 
Registerprozessoren PAEs ohne Akkumulator verwendet werden. 
Die in Figur 17 gezeigte Architektur kann zur Ansteuerung von 
Begistern als auoh zum Ansteuern einer Load/store-Einheit 

dienen. , 
bei der Verwendung als Load/Store-Einheit 1st es fast zwzngend 
notwendig einen externen RAM (1709, nachzuschalten, sodaB 1704 
nur einen temporaren Ausschnitt aus 1709, quasi als Cache, 
darstellt. 

Auch bei der Verwendung von 1704 als Register-Bank 1st es 
teilweise sinnvoll einen externen Speicher nachzuschalten. 
Dadurch k6nnen PUSH/POP Operationen nach den, Stand der Technik 
durchgefuhrt werden, die den Registerinhalt in einen Spexcher 
schreiben oder aus diesem Lesen. 

in Figur 18 ist als Beispiel eine komplexe Maschine abgebildet 
bei der das PAE-Array (1801) einerseits einen Load/Store- 
Einheit (1802) mit nachgeschaltetexn RAM (1803) ansteuert und 
gleichzeitig eine Register-Bank (1804) mit nachgeschaltetem 
RAM (1805) aufweist. 1802 und 1804 konnen jeweils von einer 
PAE oder einer beliebigen Gruppe von PAEs angesteuert werden. 
Die Einheit wird gemaB dem VPU-Prinzip von einer CT (1806) 
gesteuert. 

Wichtig ist, da* zwischen der Load/Store-Einheit (1802) und 
der Register-Bank (1804) und deren Ansteuerung kein 
wesentlicher Unterschied besteht. 
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Die Figuren 19,20,21 zeigen einen erf indungsgemafien internen 
Speicher, der zugleich eine Kommunikationseinheit mit externen 
Speichern und/oder Peripherie darstellt. Die einzelnen Figuren 
zeigen unterschiedliche Betriebsarten desselben Speichers. Die 
Betriebsarten, sdwie eihzelne-^etaileinste-llungen.-werden- dabei 

konf iguriert . 

Figur 19a zeigt einen erf indungsgemaBen Speicher im 
"Register /Cache" Modus. Im erf indungsgemafien Speicher (1901) 
sind Datenworte eines fur gewdhnlich groBeren und langsameren 
externen Speichers (1902) abgelegt. 

Der Datenaustausch zwischen 1901, 1902 und den iiber einen Bus 
(1903) angeschlossenen PAEs (nicht dargestellt) findet dabei 
wie f olgt statt, wobei unter zwei Betriebsarten unterschieden 
wird: 

A) Die von den PAEs von dem Hauptspeicher 1902 gelesenen oder 
gesendeten-Datenvwerden in 1901 mittels eines Cache-Verfahrens 
gepuf fert Dabei kann jedes bekannte Gache-Verf ahren zum 
Einsatz Jcominen- 

B) Mittels einer Load/Store-Einheit werden die Daten 
bestimmter Adressen zwischen 1902 und 1901 Ubertragen. Dabei 
werden bestimmte Adressen, sowohl in 1902 als auch in 1901 
vorgegeben, wobei fur 1902 und 1901 gewOhnlicherweise 
unterschiedliche Adressen verwendet werden. Die einzelnen 
Adressen kdnnen dabei durch Konstante oder durch Berechnungen 
in PAEs erzeugt werden. In dieser Betriebsart arbeitet der 
Speicher 1901 als Registerbank. 

Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabei 
beliebig sein und hangt led-iglich von den jeweiligen 
Algorithmen der beiden Betriebsarten ab. 

In 19b ist die entsprechende Maschine al3 Blockdiagramm 
dargestellt. Dem Bus zwischen 1901 und 1902 ist eine 
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Steuereinheit (1904) zugeordnet, die je nach Betriebsart als 
Load/Store-Einheit (nach dem Stand der Technik) oder als 
Cache-Kontroller (nach den Stand der Technik) agiert. Dieser 
Einheit kann bei Bedarf eine Speicherverwaltungseinheit (MMU) 
(1905) mit Adressiibersetzung und -uberpriifung zugeordnet 
werden. Sowohl 1904 als auch 1905 kann von den PAEs 
angesteuert werden. So wird beispielsweise die MMU 
programmiert, die Load/Store Adressen gesetzt oder ein Cache- 
Flush ausgeldst. 

Figur 20 zeigt den Einsatz des Speichers (2001) im FIFO-Modus, 
(in welchem nach dem bekannten FIFO-Prinzip Datenstrome 
entkoppelt werden. Der typische Einsatz ist in einem Schreib- 
(2001a) oder Leseinterf ace (2001b) . Dabei werden Daten 
zwischen den PAEs, die an dem internen Bussystem (2002) 
angeschlossen sind und dem Peripheriebus (2003) zeitlich 
entkoppelt. 

Zur Steuerung des FIFOs ist eine Einheit (2004) vorgesehen, 
die den Schreib- und Lesezeiger des FIFOs abhangig von den 
Busoperationen von 2003 und 2002 steuert. 

In Figur 21 ist das Arbeitsprinzip der erf indungsgemaBen 
kSpeicher im Stack-Modus dargestellt. Ein Stack ist (nach dem 
Stand der Technik) ein Stapelspeicher, dessen 

oberstes/unterstes Element das gerade Aktive ist. Daten werden 
immer oben/unten angefugt, ebenso werden die Daten oben/unten 
entfernt. D.h. das zuletzt geschriebene Datum ist auch das, 
welches zuerst gelesen wird (Last In First Out) . Ob ein Stack 
nach oben oder unten wachst, ist unbedeutend und 
implementierungsabhangig. Im folgenden Ausfuhrungsbeispiel 
werden Stacks betrachtet, die nach oben wachsen. 
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Dabei sind die aktuellsten Daten im internen Speicher 2101 
gehalten, der aktuellste Eintrag (2107) befindet sich ganz 
oben in 2101. Alte Eintrage sind auf den externen Speicher 
2102 ausgelagert. wachst der Stack weiter, reicht der Platz im 
internen Speicher 2101 nicht mehr aus. Bei Erreichen' einer 
besteimmtenisDafcenmenge, die-durch * eine (frei,*wah^bare) Adresse 
in 2101 oder^einen (frei wahlbaren) Wert in einem 
Eintragszahler r-eprasentiert seinkann, wird ein Teil von 2101 
als Block an das aktuellere Ende (2103) des Stacks in 2102 
geschrieben. Dieser Teil sind die altesten und somit am 
wenigsten aktuellen Oaten (2104) . Danach werden die 
verbleibenden Daten in 2101 so verschoben, dafi die nach 2102 
kopierten Daten in 2101 mit den verbleibenden Daten (2105) 
iiberschrieben werden und somit geniigend freier Speicher (2106) 
fur neue Staekeintrage entsteht. 

Nimmt der Stack ab, werden^ab einem gewissen (frei wahlbaren) 
Punkt die Daten in 2101 so verschoben, dafi hinter den; altesten 
und unaktuellsten Daten freier Speicher entsteht. In -den 
freigewordenen Speifeher wird' ein Speicherblock«aus 2102 
kopiert, der dann in 2102 geloscht wird. 

Mit anderen Worten reprasentieren 2101 und 2102 einen einzigen 
Stack, wobei die gerade aktuellen Eintrage in 2101 liegen und 
die alteren und weniger aktuellen in 2102 ausgelagert sind. 
[Quasi steals das,, -Verfahreji einem Cache fiir -Stacks, da r~ jDa die 
Datenblocke vorzugsweise per Blockoperationen iibertragen 
werden, kann der Datentransfer zwischen 2101 und 2102 in den 
schnellen Burst-Betriebsarten moderner Speicher (SDRAM, 
RAMBUS, etc.) ausgefiihrt werden. 

Es soli nocnmals erwahnt werden, .* dafi im Ausfuhrungsbeispiel in 
Fig. 21 der -Stack nach oben wachst. Sollte -der Stack nach 
unten wachsen (eine haufig verwendete Methode) , sind die 
Positionen oben/unten und die Richtungen in die die Daten 
innerhalb eines Speichers bewegt werden genau vertauscht. 
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Sinnvollerweise wird der interne Stack 2101 als eine Art 
Ringspeicher ausgestaltet . Die Daten an einem Ende des Ringes 
werden zwischen PAEs und 2101 ubertragen und am anderen Ende 
des Ringes zwischen 2101 und 2102. Dadurch entsteht der 
Vorteil, daB einfach Daten zwischen 2101 und 2102 verschoben 
werden konnen, ohne EinfluB auf die internen Adressen in 2101 
zu haben. Lediglich die Positionszeiger der unteren und oberen 
Daten und der Fullstandszahler mussen jeweils angepaBt werden. 
Die Dateniibertragung zwischen 2101 und 2102 kann durch die 
bekannten Ringspeicher-Flags "beinahe voll (almost full) / 
voll (full)" und "beinahe leer (almost empty) / leer (empty)" 
usgelost werden. 

Die notwendige Hardware ist als Blockschaltbild in Fig 21b 
dargestellt. Dem internen Stack 2101 ist eine Einheit (2110) 
zur Verwaltung der Zeiger und Zahler zugeordnet. In den Bus 
(2114) zwischen 2101 und 2102 ist eine Einheit (2111) zur 
Steuerung der Datentransfers eingeschleif t . Dieser Einheit 
kann eine MMU (2112) nach dem Stand der Technik mit den 
entsprechenden Prufsystemen und Adressubersetzungen zugeordnet 

werden - 

Die Verbindung zwischen den PAEs und 2101 wird iiber das 
lussystem 2113 realisiert. 

In Figur 22 ist ein Beispiel fur das Umsortieren von Graphen 
gezeigt. Die linke Spalte (22.. a) zeigt eine unoptimierte 
Anordnung von Befehlen. Dabei werden die Pointer A (2207a) und 
B (2211a) geladen. Jeweils bereits einen Takt spater werden 
die Werte der Pointer benotigt (2208a, 2212a) . Diese 
Abhangigkeit ist zu kurz urn effizient ausgefuhrt zu werden, da 
zum Laden aus dem Speicher eine bestimmte Zeit (2220a, 2221a) 
benbtigt wird. Durch umsortieren der Befehle (22.. b) werden 
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die Zeitraume maximal vergrafiert (2220b, 2221b). Obwohi in 
2210 und in 2208 der Wert des Pointers von A benotigt wird, 
wird 2208 nach 2210 einsortiert, da dadurch mehr Zeit zur 
Berechnung von B gewonnen wird. Es ist m5glich Berechnungen 
die von den Pointern unabhangig sind (2203, 2204, 2206) 
beispiel'Sweise zwischen 2211 und 2212 einzufugen um^mehr Zeit 
fur die Speicher*zugr i f f e zu erhalten . Ein Compiler oder 
Assembler kann hier anhand von Systemparametern, die die 
Zugriffzeiten reprSsentieren, die entsprechende Optimierung 
vornehmen. 

Figur 23 zeigt einen Sonderfall der Figuren 4-7. Haufig 
kbesteht ein Algorithmus, auch innerhalb von Schleifen, aus 
Datenf luflteilen und sequentiellen Teilen, Derartige Strukturen 
konnen gemafi dem beschriebenen Verfahren unter Einsatz *des in 
PACT 07 beschriebenen Bussystems effizient aufgebaut warden. 
Hierzu wird das RDY/ACK- P r o t o ko 1 1 des Bussystems ziinachst urn 
das erfindungsgemaBe REQ/ACK-Protokoll erweitert. Dadurch 
kSnnen gezielt Registerinhalte einzelner E?AEs von eiher oder 
mehreren anderen PAEs oder von der CT abgefragt werden. 
Eine Schleife (2305) wird nun in mindestens zwei Graphen 
zerlegt, einen ersten (2301), der den Datenf lufianteil 
reprasentiert und einen zweiten (2302), der den sequentiellen 
teil abbildet. 

Ein bedingter Sprung wahlt zwischen den beiden Graphen. Das 
besondere ist nun, daQ 2302 den internen Zustand von 2301 
kennen zur Ausfuhrung benotigt und umgekehrt 2301 den Zustand 
von 2302 kennen mufi* 

Dies wird realisiert, indem der Zustand genau einmal, namlich 
in den Registern der PAEs des perf ormanteren Datenf luBgraphen 
(2301) gespeichert wird. 

Wird in 2302 gesprungen, liest der Sequenzer bei Bedarf die 
Zustande der jeweiligen Register mittels des Bussystems aus 
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PACT 07 aus (2303) - Der Sequenzer fiihrt seine Operationen aus 
und schreibt alle geanderten Zustande in die Register 
(wiederum iiber das Bussystem nach PACT 07 ) zuruck (2304) . 
Abschliefiend soli angemerkt werden, dafi es sich bei den 
besprochenen Graphen nicht unbedingt urn enge Schleif'en (2305) 
handeln mufi. Das Verfahren ist generell auf jeden 
Teilalgorithmus verwendbar, der innerhalb eines 
Programmablaufes mehrfach ausgefiihrt wird (reentrant) und 
wahlweise entweder sequentiell oder parallel (datenf lufiartig) 
abgearbeitet wird, wobei die Zustande zwischen dem 
sequentiellen und dem parallelen Teil transferiert werden 
mussen . 

^^^Die Waverekonfigurierung bietet erhebliche Vorteile bei der 
Geschwindigkeit der Umkonf iguration, insbesondere bei 
einfachen sequentiellen Operationen. 

In Figur 24 sind die Auswirkungen zeitlich dargestellt. 
Einfach schraffierte Flachen stellen datenverarbeitende PAEs 
dar, wobei 2401 PAEs nach der Umkonf iguration und 2403 PAEs 
vor der Omkonf iguration zeigen. Doppelt schraffierte Flachen 
(2402) zeigen PAEs die gerade umkonf iguriert werden oder auf 
die Umkonf iguration warten. 

Figur 24a zeigt den EinfluB der Wave-Rekonf igurierung auf 

•einen einfachen sequentiellen Algorithmus. Hier ist es 
m6gliche exakt die PAEs umzukonf igurieren, denen eine neue 
Aufgabe zugeteilt wird. Da in jedem Takt eine PAE eine neue 
Aufgabe erhalt kann dies effizient, namlich zeitgleich 
durchgefuhrt werden. 

Beispielsweise dargestellt ist eine Reihe von PAEs aus der 
Matrix aller PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit jeweils einem Takt Verzogerung. 
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in Figur 24b ist die zeitliche Auswirkung der Umkonf iguration 
von groBen Teilen dargestellt. Beispielsweise dargestellt ist 
eine Menge von PAEs einer VPU. Angegeben sind die Zustande in 
den Takten nach Takt t mit einer unterschiedlichen Verzogerung 
von jeweils mehreren Takten. 

Wahrend zva.naeh.st nME. ein kleiner Tell der «PAEs iimfconf iguriert 
wird Oder* aof^die^Orakon&igwrat ion* wartet, wd*rd d*iese* Flache 
mit zunehmender Zeit groBer, bis alle PAEs umkonf iguriert 
sind. Das grSfier werden der Flache bedeutet, dafl, bedingt 
durch die zeitliche Verzogerung der Umkonf iguration immer mehr 
PAEs auf die Umkonf iguration warten (2402) . Dadurch geht 
Rechenlei stung verloren. 

Es wird daher vorgeschlagen ein breiteres Bussystem zwischen 
der CT (insbesondere des Speichers der CT) und den PAEs 
einzusetzen, -»das. ^em^&nd^eitmv^iu^uE-Uermgurig stellt , um 
innerhalb eines Taktes mehrexe PAEss*z<ug'leich 
umzukonf igurieren . 

Figur 25 ve^rdeutlicht- die^ S.kai.ierba'r.keit^der.. VPU^Teehnologie . 
Die Skalie*barfceit..geht ira WesentMchen aus^dem- Ausrollen 
eines Graphens hervor, ohne dafl eine zeitliche Abfolge 
einzelne Teilapplikationen trennt. Als Beispiel ist der 
Algorithmus aus Figur 4 gewahlt. In Figur 25a werden die 
|einzelnen Teilgraphen zeit Ucb i^na-C^^^r^fc^ie.-M^. 
Obertragen, wobei entweder Bx oder B 2 geladen wird. In Figur 
25b werden alle Teilgraphen auf eine Menge von VPUs iibertragen 
und mit Bussystemen untereinander verbunden. Dadurch konnen 
groBe Datenmengen ohne den negativen EinfluB des 
Umkonf igurierens leisfeungs f ahig- abgea^beit et- we rden . 



ProgramnuLerbeispiele 
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Ein Modul kann beispielsweise f olgendermafien deklariert 
werden: 

module example 1 

input (varl, var2 : ty x ; var3 : ty 2 ) . 

output: (resl, res2 : ty3) - 

begin 

register <regnamel> (resl) . 
register <regname2> (res2) . 
'terminates (resl & res2; 1) - 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output definiert die Ein-/Ausgangsvariablen mit den 

Typen ty„. 

begin ... end markieren den Rumpf des Modules, 
register <regnamel/2> iibergibt das Ergebnis an den Output, 
wobei des Ergebnis in dem durch <regnamel/2> spezif izierten 
Register zwischengespeichert wird. <regnamel/2> ist dabei eine 
globale Referenz auf ein bestimmtes Register. 

Als weitere Ubergabemodi an den Output stehen beispielsweise 
folgende Speicherarten zur Verftigung: 
fifo <fifoname>, wobei die Daten an einen nach dem FIFO- 
Prinzip arbeitenden Speicher ubergeben werden. <fifoname> ist 
dabei eine globale Referenz auf einen bestimmten, im FIFO- 
Modus arbeitenden Speicher. terminates wird dabei urn den 
Parameter bzw. das Signal "fifofull" erweitert, der/das 
anzeigt, daB der Speicher voll ist. 

stack <stackname>, wobei die Daten an einen nach dem Stack- 
Prinzip arbeitenden Speicher ubergeben werden. <stackname> ist 
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dabei eine globale Referenz auf einen bestimmten, im Stack 
Modus arbeitenden Speicher. 




terminate* . unterscheidet die Programmierung entsprechend des 
erf indungsgemaaen- Verf ahrens von. der herkommlichen 
sequentieM-en #*og*aamierung.- Der-Bef ehl def iniert das 
Abbruchkriterium des Modules. Die Ergebnisvariablen resl und 
res2 werden von terminate!? nicht mit ihrem tatsachlichen Wert 
evaluiert, statt dessen wird nur die Giiltigkeit der Variablen 
(also deren Statussignal) gepruft. Dazu werden die beiden 
Signale resl und res2 boolsch miteinander verkniipft, z.B. 
'durch eine UND-, ODER- oder XOR-Operation. Sind beide 
Variablen gultig, terminiert das Modul rait dem Wert 1. Das 
bedeutet, ein Signal mit dem Wert 1 wird an die ubergeordneten 
Ladeeinheit weitergeleitet, woraufhin die ubergeordneten 
Ladeeinheit das nachfolgende -Module ladt. 




module exaraple2 

input (varl, var2 : ty 3 ; var3 : ty 2 ) 

output (resl : ty«) . 

begin 

<regnamel> (varl, var2) . 



fifo <fifonamel> (resl, 256) . 
tezninatee ( f if of ull (<f if onamel>) ; 1) . 
end. 



register wird in diesem Beispiel uber" input-Daten def iniert. 
Dabei ist <regnamel> derselbe wie in examplel. Dies bewirkt, 
daft das Register, das die output-Daten in examplel aufnimmt, 
die input-Daten fur example2 zur Verfugung stellt. 
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fifo definiert einen FIFO-Speicher der Tiefe 256 fur die 
Ausgangsdaten resl. Das Full-Flag (fifofull) des FIFO- 
Speichers wird in terminate als Abbruchkriteriura verwendet. 

module main 

input (inl, in2 : tyi; in3 : ty 2 ) . 
output; (outl : ty«) . 
begin 

define <regnamel> : register (234 ) . 
define <regname2> : register (26) . 

define <fifonamel> : fifo (256, 4). // FIFO Tiefe 256 
(varl2, var72) « call examplel (inl, in2, in3) • 

(outl) = call example2 (varl2, var72, var243) . 

signal (outl) . 
terminates (example 2) . 
end. 

•define definiert eine Schnittstelle fur Daten (Register, 
Speicher, etc) . Bei der Definition werden die erf orderlichen 
Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. 
Da die Ressourcen jeweils nur einmal zur VerfOgung stehen, 
mussen sie eindeutig angegeben werden. Damit ist die 
Definition global, d.h. die Bezeichnung gilt fUr das gesamte 
Programm. 

call ruft ein Modul als Unterprogramm auf . 
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signal definiert ein Signal als Ausgangssignal, ohne daft eine 
Zwischenspeicherung verwendet wird. 

Durch terminate (example2) wird das Modul main terminiert, 
sobald, das <Unter-programm example 2 terminiert. 

Durch die globale Deklaration "define ..." 1st es prinzipiell 
nicht mehr notwendig, die so definierten input/output Signale 
in die Schnittstellen-Deklaration der Module aufzunehmen. 



• 




Die Zaatandsinformationan da a Pr ogeasormodella 

ur Bestimmung der Zustande innerhalb eines Graphen werden die 
tatusregister der einzelnen Zellen (PAEs) iiber ein zusatzlich 
zum Datenbus (0801) existierendes, frei rout- und 
segment ierbares Status-Bussystem (0802) alien anderen 
Rechenwerken zur Verfugung gestellt (Fig. 8b) . Das bedeutet, 
dafl eine Zelle (PAE X) die Statusinf ormation einer andern 
Zelle (PAE Y) evaluieren kann uhd dementsprechend die Daten 
verarbeitet. Urn den Unterschied zu bestehenden 
Parallelrechnersystemen zu verdeut lichen, ist in Fig. 8a der 
Stand der Technik angegeben. Dabei ist ein 

Multipro2essorsystem gezeigt, dessen Prozessoren uber einen 
^gemeinsamen Datenbus (0803) raiteinander verbunden sind. Ein 
xplizites Bussystera fur den synchronen Austausch von Daten 
und Status existiert nicht. 

Mit anderen Worten ausgedriickt, stellt das Netzwerk der 
Statussignale (0802) ein frei und gezielt verteiltes 
Statusregister eines einzelnen herkdmmlichen Prozessors (oder 
mehrerer Prozessoren eines SMP-Computers) dar. Der Status 
jeder einzelnen ALU (bzw. jedes einzelnen Prozessors) und 
insbesondere jede einzelne Information des Status steht 
jeweils dem oder den ALUS (Prozessoren) zur VerfUgung, die die 
Information benotigen. Dabei entsteht keine zusatzliche 
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Programm oder Kommunikationslauf zeit (abgesehen von den 
Signallaufzeiten) urn die Informationen zwischen den ALUs 
(Prozessoren) auszutauschen. 

AbschlieQend soli angemerkt werden, dafi je nach Aufgabe sowohl 
der Datenflufigraph, als auch der Kontrollf lufigraph 
entsprechend dem beschriebenen Verfahren behandelt werden 
kann. 




Enreiterungen in der Hardware qeaenubex P196 51 075.9 und P196 
54 846.2 

Durch P196 51 075.9 und P196 54 846.2 ist der Stand der 
echnik in Bezug auf die Konf igurationseigenschaf ten von 
Zellen (PAEs) definiert. 
Dabei soli auf zwei Eigenschaf ten eingegangen werden: 

1. Einer PAE (0903) ist gemafi P196 51 075.9 ein Satz von 
Konfigurationsregistern (0904) zugeordnet, der eine 

Konf iguration beinhaltet (Fig. 9a). 

2. Eine Gruppe von PAEs (0902) kann gemafi P196 54 846.2 auf 
einen Speicher zum Speichern oder Lesen von Daten zugreifen 
(Fig. 9b) 

Aufgabe ist es, 

) ein Verfahren zu schaffen, das das Umkonf igurieren von PAEs 
beschleunigt und zeitlich von der Obergeordneten Ladeeinheit 
entkoppelt, und 

b) das Verfahren so auszulegen, dafi gleichzeitig die 
Mdglichkeit geschaf f en 'wird iiber mehrere Konf igurationen zu 
sequenzen, und 

c) gleichzeitig mehrere Konf igurationen in einer PAE zu 
halten, von denen immer eine aktiviert ist und zwischen 
verschiedenen Konf igurationen schnell gewechselt werden kann. 
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EnfcJcopplung der Konfigurationaregistex 

Das Konfigurationsregister wird von der tibergeordneten 
Ladeeinheit (CT) entkoppelt (Fig. 10), indem ein Satz von 
mehreren Konf igurationsregistern (1001) verwendet wird. Immer 
genau eines der Konfigurationsregister bestimmt selektiv die 
Funktion rder^PAE. Die Auswahl des- adctiven. Registers., wird_uber 
ei<nen Multiplexer (1002) du-rGhgefuh.rt. In -jedes-der 
Konfigurationsregister kann die CT *beliebig schreiben, sofern 
dieses nicht die aktuelle Konf iguration der PAE bestimmt, d.h. 
aktiv 1st. Das Schreiben auf das aktive Register ist 
prinzipiell mbglich, dazu stehen die in PACT10 beschriebenen 
Verfahren zur Verfugung. 

felches Konfigurationsregister von 1002 selektiert wird kann 
durch verschiedene Quellen bestimmt werden: 

1. Ein beliebiges Status^Signal oder e-ine Gjsuppe beliebiger 
Status-Signale, die iiber ein Bussystem (0802) an 1002 gefuhrt 
werden (Fig- 10a). Die Status-Signale werden dabei von 
beliebigen *PAEs -generiertr 'odeEi durch ex-terne Anschiusse des 
Bausteins zur Verf iigung- gestellt (vgl. Fig.' 8). 

2. Das Status-Signal der PAE, die von 1001/1002 konfiguriert 
wird, dient zur Selektion (Fig. 10b). 

3. Ein von der iibergeordneten CT generiertes Signal dient zur 
Selektion (Fig. 10c) . 

labei ist es moglioh . imm»m^^ ^xh^enden Sighale (1003) 
mittels eines Registers fur einen bestimmten Zeitraum zu 
speichern und alternativ und wahlweise abzurufen. 



Durch den Einsatz roehrere Register wird die CT zeitlich 
entkoppelt. ""Das bedeutet, die CT kann mehrere Konf igurationen 
"vorladen" , ohne dafl eine direkte zeitliche Abhangigkeit 
besteht. 

Lediglich wenn das selektierte/aktivierte Register in 1001 
noch nicht geladen ist, wird mit der Konf iguration der PAE so 
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lange gewartet, bis die CT das Register geladi^hat. Om 
festzustellen, ob ein Register eine gultige Information 
besitzt kann beispielsweise ein "Valid-Bit" (1004) pro 
Register eingefiihrt werden, das von der CT gesetzt wird. 1st 
0906 bei einem selektierten Register nicht gesetzt, wird iiber 
ein Signal die CT zum schnellstmoglichen Setzen des Registers 
auf gefordert . 

Das in Fig. 10 beschriebene Verfahren ist einfach zu einem 
Sequenzer erweiterbar (Fig. 11). Dazu wird ein Sequenzer mit 
InstruktionsdeJcoder (1101) zur Ansteuerung der 
Selektionssignale des Multiplexers (1002) verwendet. Der 
Sequenzer bestimmt dabei abhangig von der aktuell selektierten 
Konfiguration (1102) und einer zusatzlichen Statusinf ormation 
(1103/1104) die nachste zu selektierende Konfiguration. Dabei 
kann die Statusinformation 

(a) der Status der Status-Signal der PAE, die von 1001/1002 
konfiguriert wird sein (Fig- Ha) 

(b) ein beliebiges iiber 0802 zugefuhrtes Statussignal sein 
(Fig. lib) 

(c) eine Kombination aus (a) und (b) sein. 

1001 kann auch als Speicher ausgestaltet sein, wobei anstatt 
,1002 ein Befehl von 1101 adressiert wird. Die Adressierung ist 
dabei abhangig vom Befehl selbst und von einem Statusregister . 
insoweit entspricht der Aufbau einer "von Neumann" Maschine, 
mit dem Unterscheid, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht 
zu verwenden (vgl. Fig. 10) 

(b) daB das Statussignal nicht von dem dem Sequenzer 
zugeordneten Rechenwerk (PAE) generiert werden mufl, sondern 
von einem beleibigen anderen Rechenwerk stammen kann (vgl. 
Fig. lib) . 
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Wichtig ist, dafi der Sequenzer dabei Spriinge, insbesondere 
auch bedingte Spriinge, innerhalb von 1001 ausfuhren kann. 

Ein veiteres zusatzliches oder alternatives Verfahren (Fig. 
i2) zum Aufbau^von-Sequenzern innerhalb von VEUs ist die 
Verwendung der internen Datenspeicher (1201, 0901) zum 
Speichern der Konfigurat ions information fur eine PAE oder eina 
Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers 
auf einen Konf igurationseingang einer PAE oder mehrer PAEs 
geschaltet (1202). Die Adresse (1203) fur 1201 kann dabei von 
derselben PAE/denselben PAEs oder einer oder mehreren 
beliebigen anderen generiert werden. 
Bei diesem Verfahren ist der Sequenzer nicht fest 
implementiert, sondern wird durch eine PAE oder eine Gruppe 
von PAEs nachgebildet . 
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Pa ten tanoprtiche 

Verfahren zum Ausfuhren von Programmen auf einem Baustein mit 
ein- Oder mehrdimensionaler Zellstruktur, dadurch 
gelcennzeichet, 

dafi DatenfluB- Oder Kontrollf luBgraphen in zeitlich getrennte 
Teilgraphen partitioniert werden und sequentiell auf den 
Baustein abgebildet und ausgefuhrt werden. 
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This Page is Inserted by IFW Indexing and Scanning 
Operations and is not part of the Official Record 

BEST AVAILABLE IMAGES 

Defective images within this document are accurate representations of the original 
documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 

□ BLACK BORDERS 

□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 

□ FADED TEXT OR DRAWING 

□ BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 

□ LINES OR MARKS ON ORIGINAL DOCUMENT 
REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: — — 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 
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